ChatGPT(GPT-4)が個人情報を出力するか試してみた

吉本明人

2023.05.22

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

危機管理室の吉本です。

生成AI(GPT-3.5)が個人情報を出力することがある。という三井物産セキュアディレクション㈱さんの記事を読み、GPT-4ではどうなるか気になったので自分でも試してみました。

ChatGPT(GPT-3.5)での個人情報開示

記事の内容では、GPT-3.5である手法を用いると、公開されている情報から学習した個人情報を出力させることが可能であると示されています。実際に自分でもやってみたところ、下図のように確かに公開されている個人情報の抽出がでできました。

そこでGPT-4ではどのような結果になるか、またどのように安全性を高めているかをまとめます。

GPT-4の安全性

OpenAI社はGPT-4の安全性について、許可されていないコンテンツへのリクエストに対する回答率が82%減ったとしています。

We spent 6 months making GPT-4 safer and more aligned. GPT-4 is 82% less likely to respond to requests for disallowed content and 40% more likely to produce factual responses than GPT-3.5 on our internal evaluations.

また、OpenAI社が出しているGPT-4のテクニカルレポートでは、初期のGPT-4では危険な化学物質の生成方法を出力してしまうことがあったが、最新版(3月14日移行)では出力されなくなったとしています。多くの国際的な専門家のアドバイスなどにより追加データを収集することで不許可コンテンツの要求を拒否する能力を高めているようです。これらの改善により、GPT-3.5で有効だった個人情報を出力させる手法はGPT-4では拒否されることが期待されます。